中国沿海水产养殖空间分布数据集(1990-2022)研发

尹玉蒙1,张英慧1*,胡忠文1,徐  2,王敬哲3,王  4
石铁柱1,邬国锋1

1. 深圳大学自然资源部大湾区地理环境监测重点实验室,深圳 518060
2.
华中师范大学城市与环境科学学院,武汉 430079
3.
深圳职业技术大学人工智能学院,深圳 518055
4.
生态环境部卫星环境应用中心,北京 100094

  沿海水产养殖区是中国沿海地区的重要食物来源,但养殖业快速发展的同时也带来一系列生态环境问题。本研究运用1990–2022年长时间序列密集遥感影像,基于谷歌地球引擎(Google Earth EngineGEE)云计算平台,运用多特征的沿海水产养殖区空间信息提取方法得到沿海水产养殖区空间分布数据集(1990–2022)。该数据集时间分辨率为4年,空间分辨率为30 m,数据集由99个文件组成,数据量为43.4 GB(压缩为1个文件,75.6 MB)。

关键词中国;水产养殖区;Landsat影像;长时间序列

DOI: https://doi.org/10.3974/geodp.2023.02.10

CSTR: https://cstr.escience.org.cn/CSTR:20146.14.2023.02.10

数据可用性声明:

本文关联实体数据集已在《全球变化数据仓储电子杂志(中英文)》出版,可获取:

https://doi.org/10.3974/geodb.2023.09.01.V1https://cstr.escience.org.cn/CSTR:20146.11.2023.09.01.V1.

1  前言

沿海水产养殖,包括陆上池塘养殖和海上水产养殖,作为中国沿海地区重要产业支柱,是重要食物的来源和加强人类营养的关键。根据联合国粮农组织的数据,世界水产养殖对全球鱼类产量的贡献从2000年的25.7%迅速增加到2018年的46.0%[1,2]。然而,水产养殖的快速发展会导致海水富营养化、赤潮、湿地资源破坏、水资源的不合理开发等一系列不利于可持续发展的问题[3,4]。因此,及时准确地掌握水产养殖区的空间分布及面积变化趋势对沿海区域的科学管理和水产养殖业的可持续发展具有重要的促进作用。遥感技术相比传统的实地调查统计方法具有探测范围广、获取周期短、连续动态观测等优势,是实现水产养殖区动态监测的有效手段[5, 6]。光学影像在视觉上直观且易于理解,光谱分辨率好,覆盖范围广,适用于大范围沿海水产养殖区制图[7]。长时间序列遥感数据在揭示水产养殖结构、范围和生态参数的长期动态方面具有巨大潜力[8],可以为高效规划和管理水产养殖区域提供基础数据和动态变化的信息。Landsat系列遥感数据是使用最广泛的光学数据,它可以提供长达50年的对地观测数据,是监测大范围沿海水产养殖池塘动态变化最重要的数据源之一。谷歌地球引擎(Google Earth Engine, GEE)提供了丰富的遥感数据和强大的算法、算力,为大范围密集长时间序列的数据处理和信息提取提供便利。作者基于GEE平台生产1990-2022年长时间序列中国陆上水产养殖池塘和海上水产养殖区空间分布数据集,时间分辨率为4年,空间分辨率为30 m,以期为政策的制定和实施提供数据基础,也可为沿海生态环境的可持续发展提供科学依据。

2  数据集元数据简介

4年间隔的遥感信息提取中国沿海水产养殖空间分布数据集(1990-2022)》[9]的名称、作者、地理区域、数据年代、时间分辨率、空间分辨率、数据集组成、数据出版与共享服务平台、数据共享政策等信息见表1

 

1  4年间隔的遥感信息提取中国沿海水产养殖空间分布数据集(1990-2022)》元数据简表

 

 

数据集名称

4年间隔的遥感信息提取中国沿海水产养殖空间分布数据集(1990-2022

数据集短名

CAP_MA_China_1990_2022

作者信息

尹玉蒙AAC-1460-2022,深圳大学自然资源部大湾区地理环境监测重点实验室,yinyumeng2021@email.szu.edu.cn

张英慧GYR-3820-2022,深圳大学自然资源部大湾区地理环境监测重点实验室,zyhui@szu.edu.cn

胡忠文AAX-7567-2021,深圳大学自然资源部大湾区地理环境监测重点实验室,zwhoo@szu.edu.cn

徐月AAX-7694-2021,华中师范大学城市与环境科学学院,xuyue2022010474@mails.ccnu.edu.cn

王敬哲Q-4555-2019,深圳职业技术学院人工智能学院,jzwang@szpt.edu.cn

王晨AAX-7615-2021,生态环境部卫星环境应用中心,wangchen_ch@163.com

石铁柱GBX-5637-2022,深圳大学自然资源部大湾区地理环境监测重点实验室,tiezhushi@szu.edu.cn

邬国锋,B-8735-2018,深圳大学自然资源部大湾区地理环境监测重点实验室,guofeng.wu@szu.edu.cn

地理区域

中国沿海

数据年代

1990-2022

时间分辨率

4

空间分辨率

30 m

数据格式

.tif

数据量

75.6 MB(压缩后)

数据集组成

4年为一期的1990-2022年沿海水产养殖区分布图(共计18份),包括陆上水产养殖池塘(9份)和海上水产养殖区(9份)。陆上水产养殖池塘命名规则为CAP_China_year,海上水产养殖区命名规则为MA_China_year,其中后4位为年份

出版与共享服务平台

全球变化科学研究数据出版系统 http://www.geodoi.ac.cn

 

 

续表1

 

 

地址

北京市朝阳区大屯路甲11100101,中国科学院地理科学与资源研究所

数据共享政策

全球变化科学研究数据出版系统的数据包括元数据(中英文)、通过《全球变化数据仓储电子杂志(中英文)》发表的实体数据集和通过《全球变化数据学报(中英文)》发表的数据论文。其共享政策如下:(1数据以最便利的方式通过互联网系统免费向全社会开放,用户免费浏览、免费下载;(2)最终用户使用数据需要按照引用格式在参考文献或适当的位置标注数据来源;(3)增值服务用户或以任何形式散发和传播(包括通过计算机服务器)数据的用户需要与《全球变化数据学报(中英文)》编辑部签署书面协议,获得许可;(4)摘取数据中的部分记录创作新数据的作者需要遵循10%引用原则,即从本数据集中摘取的数据记录少于新数据集总记录量的10%,同时需要对摘取的数据记录标注数据来源[10]

数据和论文检索系统

DOICSTRCrossrefDCICSCDCNKISciEngineWDS/ISCGEOSS

 

3  数据处理方法

本数据集基于GEE提供的1990–2022 Landsat 系列密集遥感影像数据(Landsat 8/5 Surface Reflectance Tier 1多光谱遥感影像),采用人工判读的方式采集沿海水产养殖区样本点;分析陆上水产养殖池塘和海上水产养殖区的光谱、纹理、太阳几何等特征及特征的时间动态变化,选取关键特征作为随机森林算法的分类特征;在GEE平台实现基于随机森林算法的监督分类,获取每张影像中国沿海水产养殖区分布结果;最后,采用众数合成每一张分类结果的方式获取最终的数据集产品。

3.1  监测范围

本数据集覆盖中国海岸带主要养殖区域,始于辽宁省北部的鸭绿江河口,南至海南省(18.2°N40.5°N),覆盖14个省区的海岸线,从北到南包括辽宁、河北、天津、山东、江苏、上海、浙江、福建、台湾、广东、香港、澳门、广西和海南。中国的海岸线曲折、岛屿众多,为水产养殖的发展提供了得天独厚的优势。

本研究中,陆上研究区被定义为海岸线向陆地延伸20 km的缓冲区,海上研究区被定义为海岸线向海域延伸20 km的缓冲区。

3.2  算法原理

1Otsu法水陆分离

采用Otsu方法[11]当类间方差与类内方差的比率达到最大值时自动计算阈值后将水体指数数值小于或大于所确定的阈值的像素分成非水或水,最终实现水体区域的提取。

2)随机森林算法

首先根据特征的重要性,采用随机森林算法选择特征。随机森林算法将每个特征值转换为随机数,然后利用该随机数计算参数对模型精度的影响,并根据多次计算得到的平均精度值来衡量该参数的重要性。随后,利用随机森林算法对水产养殖提取模型进行训练。在该分类算法中,决策树作为基本的基本单元。对于每个输入样本,N棵树产生N个分类结果,随机森林分类器对所有分类投票结果进行分析,确定投票数最高的类别,成为样本数据的最终输出类别[12]。随机森林方法的输出受到两个关键因素的影响:组成随机森林算法的决策树的数量和每个决策树所使用的特征的数量。

3)众数合成

众数是一组数据中出现次数最多的数据值,适用于数据量较多时使用[13]。求取众数具有求法简便,不受极端数据的影响的优势从而可以高效降低大范围提取时误分的概率[14]

3.3  技术路线

基于GEE平台,生成1990-2022年长时间序列沿海水产养殖区数据集的技术路线如图1所示。对每一时期影像无云像元进行水产养殖提取,并将年内提取结果用众数合成法进行综合,得到该时期的最终结果。对每一张原始影像进行以下操作:(1)每张影像数据预处理与光谱特征、纹理特征、地形特征和太阳几何特征提取;(2)利用修正归一化差异水体指数(MNDWI)自动进行水体区域提取(包括沿海水产养殖区);(3)在Google Earth高分辨率影像上进行样本选择;(4)对提取的特征进行特征选择并选取重要性排名靠前的特征进行随机森林分类得到每张影像的分类结果。为验证数据精度,进一步基于Google Earth高分辨率影像开展精度评价。

 

 

1  数据集研发技术流程图

 

1)数据预处理及特征提取

本研究使用GEE提供的Landsat地表反射率数据,在1990-2010年采用Landsat 5影像数据,2014-2022年采用Landsat 8影像数据。Landsat 地表反射率数据包含QA_Pixel波段,该波段基于掩码函数(CFMask)算法生成,可以利用该波段得到陆地、水体、云、云阴影等每一个像素的质量信息后,保留高质量观测值实现去云处理[15]。对每一张预处理后的影像计算植被指数、水体指数、建筑物指数、土壤指数特征、纹理特征、太阳几何特征等特征。

2)水体区域提取

进行水陆分离能够减少其他地物类别对水产养殖区提取的干扰。水体指数法由于能突出水与非水表面的光谱差异而被广泛应用于水陆分离进而实现水体的提取[16,17]。目前存在各种水体指数进行水陆分离。Peng等人[18]采用六个水体指数包括归一化差异水体指数(NDWI)、修正归一化差异水体指数(MNDWI)、两个自动匹配的水体提取指数(即AWEInshAWEIsh)、水指数(WI2015)和多波段水指数(MBWI)提取水体区域,并采用大津阈值算法Otsu自动确定阈值来测试不同水体指数对水体区域的提取效果,结果证明 MNDWI是最有效的,在沿海水体的提取中表现出较高的稳定性。因此,本文利用MNDWI突出水域后通过阈值化来实现水体提取。

3)样本选择

本研究综合考虑关于水产养殖区分类的研究[19,20]以及其他相关资料,将研究使用的分类系统分为两大类:水体,水产养殖区。其中,沿海水产养殖区域分为陆上水产养殖池塘和海上水产养殖区,具体判别标志见表2

在这项研究中,基于Landsat5Landsat8数据分别对陆上研究区和海上研究区进行样本点选择,用于分类器训练,样本点个数分别见表3、表4

 

2  目视解译判别标志汇标(节选)

地物类型

类别描述

影像

水体

水体包括河流、湖泊、滩涂湿地、近海水域

海上水产养殖区

海上水产养殖区通常位于海湾和近岸海水处,主要包括网箱水产养殖和筏式水产养殖。其中,浅海区的网箱养殖区由水生塑料框架和悬挂网箱组成,分布集中,呈规则矩形,与水体相比,网箱养殖设施在影像中颜色更亮。筏式水产养殖设施由水生竹筏(用于漂浮)和水下粗绳(用于固定水产品)组成,在影像上,筏式水产养殖区的特征是暗灰色条纹

陆上水产

养殖池塘

陆上水产养殖池塘是通过开垦沿海湿地或内陆湖泊形成的,通常由堤坝隔开,大小不一,形状规则紧凑,边界清楚,显示出规则的纹理,池内与周边海水颜色一致

 

3  陆上水产养殖池塘分类时样本点数量统计表

类别

Landsat 5样本点个数

Landsat 8样本点个数

水体

14,000

14,000

陆上水产养殖池塘

20,372

20,000

 

4  海上水产养殖区分类时样本点数量统计表

类别

Landsat 5样本点个数

Landsat 8样本点个数

水体

21,967

26,913

海上水产养殖区

 8,687

 7,725

4)特征选择与养殖区提取

具有相关性的特征同时参与分类不仅会导致处理效率低下,还会造成信息冗余,降低精度[21]。为了解决这些问题,本研究采用随机森林特征重要性排序方法来降低数据的维数。基于随机森林算法选择重要性靠前的少量关键特征,进一步基于所选特征实现水产养殖区的提取。其中树的数量设置为100,最大深度不受限制,每个树节点的最小样本数为1,每棵树的特征数设置为变量数的平方根。

5)分类结果众数合成

本研究对每张影像利用随机森林分类器进行水产养殖区提取,得到的密集时间序列分类结果(图2a),逐像素统计各类别出现频率(图2b),选择频率最高的类别作为最终的类别(图2c)。总体流程如图2所示。

 

 

2  分类结果众数合成示意图

 

6)精度评价

随机生成验证样本点集合,基于谷歌地球影像,目视解译判读样本点类别,将分类结果与样本点集进行比较从而计算混淆矩阵,然后采用总体精度和Kappa系数来评估水产养殖区提取的精度。

4  数据结果与验证

4.1  数据集组成

数据集由1990–2022年全国沿海水产养殖区数据组成,包含 1990–2022年间4年间隔的沿海陆上水产养殖池塘、海上水产养殖区空间分布数据,空间分辨率为30 m的栅格数据,数据格式为.tif

4.2  数据结果

1990–2022年中国沿海陆上水产养殖池塘呈现先增加后减少的趋势,如图3a所示。1990-2014年,中国沿海陆上水产养殖池塘面积总体呈上升趋势,养殖池塘面积从1990年的13,140.19 km2增加至2014年的16,650.04 km2,净增加3,509.85 km2,增加量为146.24 km2/年。其中,最大量发生在1994-1998年间,增加量为723.02 km2/年。2014-2022年,中国沿海陆上水产养殖池塘总面积持续下降,从2014年的16,650.04 km2降至2022年的13,763.29 km2,净损失2,886.75 km2,损失量为360.84 km2/年。最大的减少发生在2018年至2022年间,损失量为465.56 km2/年。

与陆上水产养殖池塘不同,32年间中国沿海海上水产养殖区呈现增加的趋势,如图3b所示。面积从1990年的4,577.21 km2增加至2022年的10,769.00 km2,净增加6,191.78 km2,增加量为193.49 km2/年。最大量发生在1990-1994年间,增加量为415.14 km2/年,其次是2006-2010年间,增加量为231.56 km2/年。其他年份中,中国沿海海上水产养殖区增加量均为约100 km2/年。

 

 

3  1990-2022年中国沿海水产养殖区的面积变化图

 

不同省份的养殖区分布面积存在巨大差异,如图4a所示。2022年山东拥有最大的陆上水产养殖池塘面积(占比22.95%),其次是辽宁(占比15.55%)、广东(占比14.80%)、河北(占比10.83%)和江苏(占比10.36%)。这五个省合计占中国沿海陆上水产养殖池塘总面积的74.49%。而海南、广西、上海、香港、澳门5个省总共只占4.78%

海上水产养殖区的分布与陆上水产养殖池塘在各省的分布明显不同(图4b)。2022年福建省拥有最大的海上水产养殖区面积(占比37.98%),其次是浙江(占比21.43%)、山东(占比15.05%)、广东(占比10.50%)。这四个省合计占海上水产养殖区总面积的84.96%。而香港、上海、河北、天津、澳门5个省总共只占0.99%

4.3  数据结果验证

在研究区范围内随机生成了共计6,000个点,这些随机点分为三类:陆上水产养殖池塘(1,000个点)、海上水产养殖区(1,000个点)和其他地物(4,000个点)。利用谷歌地球提供的1990-2022年的卫星影像作为底图,对每年的影像进行目视判读,确定每个随机点所属的地物类型,包括三个类别:陆上水产养殖池塘、海上水产养殖区以及其他地物。进一步生成混淆矩阵评估分类精度,计算了Kappa系数和总体精度。各年份的精度评估结果如图5所示。在1990-2022年间,遥感制图产品在全国沿海水产养殖区表现出了出色的分类精度,平均总体精度达到了96.25%,平均Kappa系数高达0.92。历年的总体精度均未低于95.00%Kappa系数也保持在0.90以上。这些结果表明,本研究生产的遥感数据集在地物分类方面具有高度准确性,为研究区的水产养殖区域提供了可靠的信息。

 

 

 

4  2022年中国各省的水产养殖区面积对比图

5  讨论和总结

长时间序列的养殖区分布数据对于优化养殖区产业布局、生态环境提升等具有重要意义,但目前中国海岸带区域的养殖区分布数据仍然较少,尤其是缺乏海上水产养殖区分布

数据。本文基于谷歌地球引擎(GEE)云计算平台,利用陆地卫星(Landsat)长时间序列遥感影像数据,采用优选多特征的机器学习方法提取了1990–2022中国沿海陆上水产养殖池塘与海上水产养殖区的分布,并分析了养殖区分布的变化格局。数据集具备30-m空间分辨率和4年的时间分辨率,全面覆盖中国沿海海岸带区域。经过精度检验,结果表明,该遥感制图数据集的平均总体精度达到了96.25%,同时平均Kappa系数高达0.92。数据集可应用于中国沿海水产养殖区演变分析,为海岸带开发利用政策的制定和实施提供重要支撑,也为评估可持续发展目标、生态文明建设等提供科学依据。

 

 

5  沿海水产养殖区精度验证结果图

 

 

作者分工:胡忠文、王晨、邬国锋对数据集的开发做了总体设计;尹玉蒙、徐月采集和处理了样本数据、遥感影像数据;张英慧、石铁柱设计了模型和算法;尹玉蒙、徐月做了数据验证;尹玉蒙、张英慧、胡忠文撰写了数据论文等。

 

利益冲突声明:本研究不存在研究者以及与公开研究成果有关的利益冲突。

 

参考文献

[1]      FAO. The State of World Fisheries and Aquaculture 2020 [M]. FAO, Rome, 2020.

[2]      Duan, Y., Tian, B., Li, X., et al. Tracking changes in aquaculture ponds on the China coast using 30 years of Landsat images [J]. International Journal of Applied Earth Observation and Geoinformation, 2021, 102: 102383.

[3]      Sun, Z., Luo, J., Yang, J., et al. Nation-scale mapping of coastal aquaculture ponds with Sentinel-1 SAR data using Google Earth Engine [J]. Remote Sensing, 2020, 12(18): 3086.

[4]      Wang, M., Mao, D. H., Xiao, X. M., et al. Interannual changes of coastal aquaculture ponds in China at 10-m spatial resolution during 2016–2021 [J]. Remote Sensing of Environment, 2023, 284: 113347.

[5]      Sridhar, P. N., Surendran, A., Ramana, I. V. Auto-extraction technique—based digital classification of saltpans and aquaculture plots using satellite data [J]. International Journal of Remote Sensing, 2008, 29(2): 313‒323.

[6]      Ottinger, M., Clauss, K., Kuenzer, C. Aquaculture: relevance, distribution, impacts and spatial assessments —a review [J]. Ocean & Coastal Management, 2016, 119: 244‒266.

[7]      Ren, C., Wang, Z., Zhang, Y., et al. Rapid expansion of coastal aquaculture ponds in China from Landsat observations during 1984–2016 [J]. International Journal of Applied Earth Observation and Geoinformation, 2019, 82: 101902.

[8]      Ottinger, M., Clauss, K., Kuenzer, C. Large-scale assessment of coastal aquaculture ponds with Sentinel-1 time series data [J]. Remote Sensing, 2017, 9(5): 440.

[9]      尹玉蒙, 张英慧, 胡忠文等. 4年间隔的遥感信息提取中国沿海水产养殖空间分布数据集(1990-2022[J/DB/OL]. 全球变化数据仓储电子杂志, 2023. https://doi.org/10.3974/geodb.2023.09.01.V1. https://cstr.escience.org.cn/CSTR:20146.11.2023.09.01.V1.

[10]   全球变化科学研究数据出版系统. 全球变化科学研究数据共享政策[OL]. https://doi.org/10.3974/dp.policy.2014.05 (2017年更新).

[11]   Otsu, N. Threshold selection method from gray-level histograms [J]. IEEE Transactions on Systems Man and Cybernetics, 1979, 9(1): 62‒66.

[12]   Breiman, L. Random forests [J]. Machine Learning, 2001, 45(1): 5‒32.

[13]   Pearson, K. Contributions to the mathematical theory of evolution [J]. Philosophical Transactions of the Royal Society of London, 1894, 185: 71‒110.

[14]   Liu, Y., Wang, Z., Yang, X., et al. Satellite-based monitoring and statistics for raft and cage aquaculture in China’s offshore waters [J]. International Journal of Applied Earth Observation and Geoinformation, 2020, 91: 102118.

[15]   Zhu, Z., Woodcock, C. E. Object-based cloud and cloud shadow detection in Landsat imagery [J]. Remote Sensing of Environment, 2012, 118: 83‒94.

[16]   Xie, H., Luo, X., Xu, X., et al. Evaluation of Landsat 8 OLI imagery for unsupervised inland water extraction [J]. International Journal of Remote Sensing, 2016, 37(8): 1826‒1844.

[17]   Guo, Q., Pu, R., Li, J., et al. A weighted normalized difference water index for water extraction using Landsat imagery [J]. International Journal of Remote Sensing, 2017, 38(19): 5430‒5445.

[18]   Peng, Y., Sengupta, D., Duan, Y., et al. Accurate mapping of Chinese coastal aquaculture ponds using biophysical parameters based on Sentinel-2 time series images [J]. Marine Pollution Bulletin, 2022, 181: 113901.

[19]   Virdis, S. G. P. An object-based image analysis approach for aquaculture ponds precise mapping and monitoring: a case study of Tam Giang-Cau Hai Lagoon, Vietnam [J]. Environmental Monitoring and Assessment, 2014, 186(1): 117‒133.

[20]   Diniz, C., Cortinhas, L., Pinheiro, M. L., et al. A large-scale deep-learning approach for multi-temporal aqua and salt-culture mapping [J]. Remote Sensing, 2021, 13(8): 1415.

[21]   Gross, J. W., Heumann, B. W. Can flowers provide better spectral discrimination between herbaceous wetland species than leaves? [J]. Remote Sensing Letters, 2014, 5(10): 892‒901.